PCI Express 


搭載 LSI の 設計 


IP コア 選定 の 考え 方 と 


PCI Express 高速 転送 技術 


最近 , 高速 な 拡張 バス と し て 使わ れ て きた PCI-X が 消え つつ 
あり , PCI Express に と つて 代わ っ て いる . 読者 の 中 に も , 
PCI や PCI-X の 拡張 カー ド を PCI Express に 置き 換え る 必要 
性 を 感じ て いる 方 も 多い と 思う . 本 稿 で は , 筆者 ら が 開発 し た 
PCI Express と ロー カル ・ バ ス の ブリ ッ ジ LSI を 例 に と り , 
FPGA(Field Programmable Gate Array) や ASIC 
(Application Specific Integrated Circuit) に PCI 
Express な どの バス ・ イ ンタ ー フ ェ ー ス を 実現 する た め の IP 
(Intellectual Property) コア 選定 手法 を 解説 する . IP コア 
を 使い こなし て 転送 能力 を 最大 限 に 取り 出す 技術 を 解説 す 
る . (筆者 ) 


ど 12 要求 され る PCI Express の 機能 と 性 
能 の 洗い 出し 


@⑱ IP コア で ロー カル ・ バ ス と の ブリ ッ ジ LSI を 設計 
どの よう な も の を 作る 場合 で も 同じ で す が , 最初 に 必要 
な 機能 と 性 能 を 洗い 出し ます . 今回 , 筆者 ら が 設計 し た 


写真 1 

今回 作成 し た LSI の 
外観 

アバ ー ル デー タ 製 の PCI 
Express bus Bridge 
「 AAE-B04」. 


LSK 写真 1) で は , 最初 に 次 の よう な 要求 が あり まし た . 


e 本 LSI を 使っ て PCI Express イ ンタ ー フ ェ ー ス を 
安価 に 実現 で きる 

e 汎用 的 に 使え る 

e PCI Express の 4 レー ン ( x4) に 対応 する 

e PCI Express の 帯域 に 見 合っ た ロー カル ・ バ ス ・ 
イン ター フェ ー ス を 実装 する 

e PCI Express と ロー カル ・ バ ス の 双方 か ら ア クセ ス 
可能 な 大 容量 ・ 高 速 メ モリ の イン ター フェ ー ス を 
搭載 する 

eDMA( Direct Memory Access) コ ント ロー ラ を 内 
蔵 し , Scatter/Getter モー ド 注 ! に 対応 する 

e 転送 性 能 を 限界 まで 引き 出せ る 

e PCI Express 部 は 市 販 の IP コア を 使う 

e コ スト 面 か ら ス トラ クチ ャ ー ド ASIC を 使う 


また , 明確 な 要求 以外 の 潜在 的 な 要求 は 常に 存在 し ま 
す . 潜在 的 な 要求 を 考慮 し な いと 応用 が 利 か ず , 製品 寿 
命 が 短く な り ま す . 

筆者 の 経験 で は , 潜在 的 な 要求 の 洗い 出し に 一 番 効果 
的 な の は , キー と な る 人 に 直接 聞き 取り 調査 を 行う こと 


注 1: DMA 転送 方 法 の 一 つ で , 転送 元 ・ 転 送 先 ・ 転送 サイ ズ が 書か れ た 
テー ブル を 参照 し な が ら 連続 的 に デー タ 転送 を 行う 方 法 . 複数 の テー 
ブル を つなげ る こと が 可能 な の で , 非 連続 アド レス を 転送 元 ・ 転 送 先 
と する デー タ 転送 が ソフ トウ ェ ア 負 荷 な し に 実行 で きる . Windows や 
Linux と いっ た , 仮想 メモ リ を 使用 し た OS で は 実 メ モリ ・ ア ドレ ス 
が 連続 し て 確保 され な いた め , この モー ド が 必要 と な る . 


PHY IP, MAC IP, DMA, ペイ ロー ド ・ サ イズ , リン クア ッ プ , TC マ ッ ピ ング , チッ プ セ ッ ト , レシ ー バ 検出 , 


圏 | | 且 
ーーー OO PP コア, トラン ザク ショ ン 型 バス , イン ター ロッ ク 型 バス 
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で す . メー ル を 送っ て 返事 を 待つ より , 直接 話 を 聞い た 
方 が より 多く の 情報 を 入手 で きま す . 聞か れる 方 も 話す 
うち に 頭 が 整理 で きま す . 聞き 取り で 以下 の 潜在 的 要求 
が ある こと が 分 か り ま し た . 


e ローカル ・ バ ス に は 必ず FPGA が 接続 さ 
FPGA と の 接続 性 が 良い こと 

eFPGA の コン フィ グレ ーション を 行え る . また , 
ホス ト か ら コ ン フ ィ グ レー ショ ン ・ デ ー タ を アッ 
プ デ ー ト で きる こと 

e 部 品 点数 を 少な く で きる よう に シン プル な 回 路 構 
成 と な る こと ( 特に コス ト へ の 影響 が 大 きい クロ ッ 
ク と 電源 の 部 品 ) 


れる の で , 


以上 の 要求 の うち , IP コア を 用 いる PCI Express 部 以 
外 は , ほぼ フル スク ラッ チ で 作成 する こと に な り ま す . 
この 時 点 で か な り の 設計 量 に な る こと が 予想 され ます . 


ご 2 つ PCI Express の IP コア 選定 


信 MAC 部 の IP コア で ボー ド の 特徴 が 決ま る 
要求 仕様 を 踏ま え , 重要 な PCI Express の IP コア を 選 


ます . 普通 は LSI ベ ンダ より 供給 され ます . PHY IP と 
MACIP は 通常 , PIPE イン ター フェ ー ス で 接続 され ます 
( 図 1). 

MAC IP は , 物理 層 の 論理 サブ ブロ ッ ク よ り 上 位 の 部 
分 で す . PCI Express で は , この MAC IP を 選択 する こ 
と に より PCI Express 部 の 個性 が 決ま り ま す . 


⑱ トラ ン ザ クシ ョ ン 層 の 充実 度 が IP コア 選択 の 決め 手 
MACIP の 選定 に お いて 重要 な の は 以下 の 項目 で す . 
① ト ラン ザク ショ ン 層 の 回 路 を どの 程度 実装 し て いる か. 
また , ユー ザ ・ イ ンタ ー フ ェ ー ス は どう な っ て いる か . 
プロ ト コル ・ デ ー タ ・ バス 幅 ・ ク ロッ ク 周 波数 な ど . 
② 回 路 規 模 は どの 程度 か . 
③IP コ アベ ンダ の サポ ー ト 体制 は 良い か . 

① は 自身 で どの 程度 作り 込む 必要 が ある か に 直結 し ま 
す . PCI Express の IP コア ( MAC IP) で よく 見 る の は , 
トラ ン ザ クシ ョ ン 層 パケ ッ ト ( TLP) が ほ は ば その まま ユー 
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定 し ます . 詳細 仕様 を 決め る 前 に IP コア 選定 を 行う の 
は , 使用 する IP コア に よっ て , 仕様 に 大 き な 影 響 を 与え 
る か ら で す . IP コア に より 実装 可能 な 機能 が 決ま っ た り , 
較 
実装 に か か る 設計 量 が 大 きく 変わ っ た り し ます . KN 
へ 
PCI Express は 通常 , 二 つ の IP を 組み 合わ せ て 使用 し ま 加 
す . 一 つ は PHY 部 分 の IP コア (PHY IP), も う 一 つ は MAC 
( Media Access Contro) 部 分 の IP コア ( MACIP) で す . 遇 拉 | 
PHY IP は , 25Gbps イ ンタ ー フ ェ ー ス を 含む 物理 層 の PCI Express 部 の _ 囚 較 
還 1 な 構造 
電気 サブ ブロ ッ ク と , 論理 サブ ブロ ッ ク の 一 部 が 含ま れ ME NM 
PCI Express の IP コ 居 ロ 
ア は 通常 MAC 部 と 務 
PHY 部 の 二 つ に 分 か | PCI Express 図 
れ て 提供 され る . レー ン 
表 1 IP ご と の 特徴 
IP ベン ダ に より 注力 し て いる 部 分 が 異な る の が 分 か る . 
TL( トラ ン ザ クシ ョ MAX バッ クエ ンド ・ イ ンタ ー フ ェ ー ス 
9 ン 層 ) の 作り 込み 度 Payload 0 タイ プ マス タ / タ ー ゲ ッ ト 
イン ベン チュ ア 高 4K バイ ト ソフ ト ・ マ クロ メモ リ ・ ア クセ ス 分 離 
A 社 A タ イプ 2K バイ ト ソフ ト ・ マ クロ メモ リ ・ ア クセ ス 分 離 
A 社 B タ イプ 4K バイ ト ソフ ト ・ マ クロ TLP パケ ッ ト 非 分 離 
B 社 X タ イプ 4K バイ ト ハー ド ・ マ クロ TLP パ ケッ ト 非 分 離 
B 社 Y タ イプ 512 バ イト ソフ ト ・ マ クロ TLP パ ケッ ト 非 分 離 
C 社 2K バイ ト ソフ ト ・ マ クロ TLP パケ ッ ト 非 分 離 
D 社 4K バイ ト ソフ ト ・ マ クロ TLP パ ケッ ト 分 離 
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ザ ・ イ ンタ ー フ ェ ー ス に 出 て き て いる も の で す . 

この タイ プ の IP コア を 選定 する と , PCI Express の 仕 
様 を 熟知 し な いと 使い こなす こと が 難し く , ユー ザ が 作り 
込む 回 路 が 増大 し ます . せっ か く 開発 の 手間 を 省く た め 
に IP コア を 購入 し て , ユー ザ 回 路 に 注力 し た い の に , 仕 
様 の 調査 に 多く の 時 間 を と られ る 結果 に な りか ね ませ ん . 


で す . また , クロ ッ ク 周 波数 や デー タ ・ バ ス 幅 と 使用 す 
る デバ イス が 合っ て いな いと 実装 が 難し く な り ま す . 

② は ① と トレ ー ド オフ の 関係 に な り ま す . 必要 な 機能 
が 実装 され て いる の で あれ ば , 回 路 規 模 は 小さ い に 越 し 
た こと は あり ませ ん . また , コス ト 面 か ら PCI Express 
に 割 ける 回 路 規 模 は ある 程度 決ま っ て し まう の で , 実装 


今回 選定 に あたり 調査 し た IP コア を 表 1 に まとめ まし 
た . ユー ザ 回 路 と 接続 する 側 の バッ クエ ンド ・ イ ンタ ー 
フェ ー ス は メモ リ に アク セス する 感覚 で 利用 で き , マス 
タ と ター ゲッ ト の ポー ト が 分 離さ れ て いる も の が お 勧め 


可能 か 判断 する 必要 が あり ます . 

③ に つい て は , コミ ュ ニ ケー ショ ン の し や すさ . マニ ュ 
アル な どの 資料 の 充実 度 , サポ ー ト の 良さ な ど で 決 まる 
と 思い ます . た だ , サポ ー ト に 関し て は 実際 に IP を 採用 
し て 問い 合わ せ て みな いと 分 か ら な い の で , 選定 の 時 点 
で 判断 する の は 難し いか も し れ ま せん 

筆者 ら は 今回 , 総合 的 に 判断 し て イン ペン チェ ア 製 の 

遅延 鐘 ニ 記 加 連 ー IP コア を 採用 し まし た . 決め 手 は トラ ン ザ クシ ョ ン 層 の 

デー タ 受信 図 Le lLpilLps lps | P4 作り 込み の 充実 度 と , 日 本 の IP コア ベン ダ な の で コミ ュ 
Lo Li ]LPz || PS " ニケ ーション が 楽に 行え る る こと で し た . 

バッ ファ 開放 通知 送信 図 


遅延 ー - ーー ws" 
ei ご 3 PCI Express 開発 の 注意 点 


送信 側 図 ※ 信 側が 認識 し て いる 較 昌 」 、 
受信 側 の 空き パッ ファ 量 4|13 |2  h 上 h IM 包 |2 高速 転送 に は は バッ ファ と ペイ ロー ド の 最適 化 が 重要 
図 2 十分 な バッ ファ 実装 時 特に 多 レ ー ン の PCI Express 製 品 を 実現 する 場合 , 転 
送 性 能 を 十分 に 発揮 させ る 必要 が あり ます . 転送 性 能 に 


デー タ 処 理 較 


ペイ ロー ド ・ サ イズ の 4 倍 の バッ ファ を 確保 し た 場合 , 受信 側 の デー タ 処理 は , 
通常 。 受信 パケ ッ ト に エラ ー が な いこ と を 確認 し て か ら 開始 する た め , 上 記 の 
様 な タイ ミン グ に な る . 


表 2 
バッ ファ の 種類 と , 影響 する 転送 名 称 
使用 する IP コア に よっ て 名 称 は 若干 異な る . IP コ 
ア に よっ て は , 受信 側 と 同じ 名 称 の バッ ファ を 送信 
側 に も 備え て いる も の が ある . Posted タ イプ は 相 
手 側 の 応答 を 待た ず に デー タ を 送り つけ る . Non- 上 WPSRBe Data 

Posted タ イプ は 相手 側 の 応答 を 待っ て か ら デ ー タ Non-Posted Header Buffer 
を 送る . Completion Data Buffer 


Posted Data Buffer 
Posted Header Buffer 


Completion Header Buffer 
Retry Buffer 
Retry TAG Buffer 


財 ロー ド ・ サ イズ の 2 倍 分 の デー タ を 送信 し て か ら 図 Js 
バッ ファ 開放 追 加 を 受け 取る まで パッ ファ 6 待ち 発生 ! 図 | 待ち 発生 ! 較 
送信 側 鐘 デー タ 送信 図 [po [pi 」 | Pz | 1 gl 
遅延 較 還 し 計 
デー タ 受 信 図 | [ し 
EE LlL5H iaLmsH 
バッ ファ 開放 通知 送信 較 ( 回 : 剛 | 
図 3 遅延 ( Km 
バッ ファ 不足 時 玉 バッ ファ 開放 通知 受信 較 1 回 回 ( 
ペイ ロー ド ・ サ イズ の 2 倍 し か 人 條 0 
了 5 が な い 場 合 軸 況 き バ ッ ファ 量 図 2h lo ilp hh hlp _ 明 
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大 き な 影 響 を 与え る 要因 は 以下 の 3 点 で す . 

e 送受 信用 の バッ ファ ・ サ イズ 表 2 参 照 ) 

e 伝送 部 の 遅延 時 間 

ee サポート する 最大 ペイ ロー ド ・ サ イズ MaxPL) 
転送 性 能 へ の 影響 は 以下 の 順 で 大 きく な り ま す . 

バッ ファ ・ サ イズ ツジ 遅延 MaxPL 
1) バッ ファ ・ サ イズ が 小さ いと 転送 性 能 が 悪化 する 

PCI Express の 仕様 上 , デー タ 転送 を 開始 する 時 点 で 
相手 先 の バッ ファ に 空き が ある こと を 知っ て いる 必要 が 
あり まず 図 2). バッ ファ に 空き が な いと , 空く まで 転 
送 を 待た な けれ ば な り ま せん 図 3). 

デー タ 受信 側 の 処理 能力 が 十分 に あっ た と し て も , 十 
分 に この バッ ファ が 実装 され て いな いと , デー タ 転 送っ 
バッ ファ の 空き 待ち データ 転送 を 繰り 返す こと に な り , 
全体 と し て デー タ 転送 性 能 が 悪化 し ます . 筆者 の 経験 で 
は , 表 3 に 拳 げた バッ ファ ・ サ イズ で , 転送 へ の 悪影響 
は ほぼ な く な り ま す . 

バッ ファ の 管理 は IP コア で 行い ます . デー タ 系 バッ 
ファ は , 通常 LSI 内 蔵 SRA M を 使用 可能 な 構造 に な っ て 
いま す . ヘッ ダ 系 バッ ファ は , IP コア の 種類 に より 
SRA M を 使用 可能 な 場合 と , フリ ッ プ フロ ッ プ に し か 配 
置 で き な い 場合 が あり ます . フリ ッ プ フロ ッ プ に 配置 す 
る 場合 , 1 段 で 96~ 128 個 程度 の FF を 使用 し ます . デバ 
イス 規模 と 相談 し て 決め る 必要 が あり ます . 

2) 開始 / 終 了 通 知 の 遅延 が 大 きい と 転送 性 能 が 悪化 

ここ で いう 遅延 と は , デー タ 処理 要求 を 受け 取っ た 側 
が 実際 に 処理 を 行い , 要求 元 に 処理 完了 を 通知 する まで 


遅延 凶 
デー タ 受 
受信 側 図 デー タ 処理 図 


バッ ファ 開放 通知 送信 図 


の 時 間 の こと で す . 実際 の デー タ 転送 に か か る 時 間 は 含 
み ま せ ん . 

遅延 が ある と , デー タ 処 理 の 開始 が 遅れ る の に 加え , 処 
理 完了 時 に バッ ファ が 空い た , と いう 通知 も 遅れ まず 図 
4). 遅延 の 要因 は , ① 実 際 の デー タ 処理 に か か る 時 間 と , 
② 処 理 の 開始 / 終 了 を 相手 に 通知 する まで の 時 間 で す . 

② は さら に 二 つ に 分 けら れ ま す . PHY 部 の パラ レル - シ 
リア ル 変 換 に か か る 時 間 と MAC 部 の 応答 時 間 で す . 
PHY 部 の 遅延 は LSI/FPGA メー カ に より か な り 異な る よ 
う です, 

実際 , 今回 評価 で 使用 し た 2 社 の FPGA で も 遅延 量 が 
大 きく 異な り ま し た . また , MAC 部 の 動作 クロ ッ ク が 遅 
い 場 合 も 遅延 が 増大 し ます . 

表 4 は 実際 に PHY を 変更 し て 転送 速度 が 変化 し た こと 
を まとめ た も の で す . バッ ファ が 十分 に 確保 され て いな 
い 環 境 で は , 遅延 の 悪影響 が 発生 に て いる こと が 分 か り 
寺 ま 。 

3) ペイ ロー ド ・ サ イズ が 小さ い 影 響 は 比較 的 少な い 

不思議 に 思わ れる か も し れ ま せん が , MaxPL 最大 ペ 


表 3 転送 速度 を 十分 に 出す た め に 必要 な バッ ファ 量 
表 は 遅延 の 大 きめ な PHY の 場合 . 遅延 の 小さ な PHY で は , 25~ 50% 程 度 減ら 
し て も 影響 び が な いこ と も ある . 

Max Payload Size MaxPL ) 
128 バ イト 256 バ イト 以上 
1024 バ イト 以上 | Max Payload SizeX 4 
8 バイ ト 以上 4 バイ ト 以上 

8 バイ ト 以上 


項 目 


Posted Data Buffer Size 
Posted Header Buffer Size 
NonPosted Header Buffer Size 


(バッ ファ 空き 待ち 増大 !) 図 


[me lm トー キーT[g ]Lps ] 
ia ms 
Lo ILgi | | LmILgs 


間 還 天 記 mlgm 還 提 較 中 lm 
押 間 図 回 : 回 剛 


遅延 ー 』 ーー 
較 人 パッ ファ 開放 通知 和信 回 王国 逆 : 
バッ ファ 不足 か つ , 遅延 大 の 場合 ” し 空き パッ ファ 量 較 2h lo hlo hl hl 


表 4 


バッ ファ 


PHY て B 社 FPGA ) 


PHY る C 社 FPGA ) 


INS IESSE み ヲ ) 


遅延 に よる 転送 速度 へ の 影響 


PHB PDB 


遅延 大 


遅延 中 


遅延 小 


4 レー ン で リン ク さ せ た 際 の 転送 速度 の 変化 の 


4 個 | 256 バ イト 


271M バイ ト /s 


365M バイ ト /s 


422M バイ ト /s 


様子 と まとめ た . パソ コン 1, 2 は バッ ファ ・ 
サイ ズ が 不足 し て いる 場合 , MaxPL を 128 バ イ 


8 個 512 バ イト 


548M バイ ト /s 


720M バイ ト /s 


744M バイ ト /s 


ト に 統一 . 


12 個 | 768 バ イト 


742M バイ ト /s 
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744M バイ ト /s 


744M バイ ト /s 
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イロ ー ド ・ サ イズ ) の 影響 は あま り 大 きく あり ませ ん . 
MaxPL が 大 きい と , トラ ン ザ クシ ョ ン に 占め る デー タ の 
割合 が 多く な り , 速度 が 向上 し ます . し か し , バッ ファ ・ 
サイ ズ や 遅延 に より 速度 が 低下 し て いる 状況 で は , そ も 
そ も デ ー タ を 送り 出せ ませ ん . MaxPL が 大 きく て も 速度 
は 上 が ら な く な り ま す . 

バッ ファ ・ サ イズ が 十分 で , 遅延 が 悪影響 を 及ぼ さ な 
いと き の MaxPL の 値 の 例 を 表 5 に 示し ます . 

MaxPL は 大 きい 方 が ベタ ー で す が , 必要 な バッ ファ ・ 
サイ ズ も 多く な り ま す . MaxPL に 比べ バッ ファ ・ サ イズ 
が 小さ すぎ る と , 転送 性 能 が 悪化 する 場合 あり ます . 

も う 一 つ MaxPL の 影響 が 限定 的 に な る 要因 は , 接続 
する PCI Express デ バイ ス の MaxPL が あま り 大 きく ない 
こと に あり ます . MaxPL は , 接続 する PCI Express デ バ 
イス の 小さ い 側 の 数 値 に 合わ せら れ ま す . それ 以上 大 き 
な サイ ズ に 対応 し て いて も 意味 が あり ませ ん . 

米国 Intel 社 の デス クト ッ プ / ノ ー ト ・ パ ソコ ン 了 向け チッ 
プ セ ッ ト の MaxPL は 128 バ イト , サー バ / ワ ー ク ステ ー 
ショ ン 向 け チ ッ プ セッ ト の MaxPL は 256 バ イト と な っ て 
いま す . 評価 で 使用 し た 米国 AM Advanced Micro 
Device) 社 の CPU の 中 に は , MaxPL が 512 バ イト の チッ 
プ セ ッ ト も あり まし た . 


表 5 Max ペイ ロー ド ・ サ イズ に よる 転送 
速度 へ の 影響 
項 目 MaxPL 転送 速度 
パソ コン 3 | 128 バ イト | 760M バイ ト /s 
パソ コン 4 | 256 バ イト | 845M バイ ト /s 
パソ コン 5 | 512 バ イト | 894M バイ ト /s 


表 6 チッ プ セ ッ ト の バッ ファ と 対応 する ペイ ロー ド ・ サ イズ 


チッ プ セ ッ ト に より , バッ ファ 搭載 量 に か な り バ ラ ツ キ が ある . デー タ シ ー ト に は 本 値 
に 関す る 記述 は な い . ( 今回 使用 し た パソ コン で の 実測 値 ) 設定 や 構成 に より 値 が 異な る 


可能 性 が ある こと を ご 了承 いた だ き たい . 
バッ ファ ・ サ イズ (バイト ) 


Posted | Non Posted | Posted 


2 一 ヘッ ダ デー タ [( MaxPL) 


4) 接続 先 の 転送 性 能 が 低い と 性 能 は 上 が ら な い 

前 述 の MaxPL だ け で な く , 転送 性 能 は 通信 相手 の バッ 
ファ ・ サ イズ と 遅延 の 影響 も 受け ます . 特に 古い チッ プ 
セッ ト の バッ ファ ・ サ イズ は , か な り 少なく な っ て いま 
す . 不 特定 の パソ コン に 差し て 使用 する , 汎用 的 な ボー 
ド の 場合 に は 気 を つけ て く だ さい ( 表 6). 


@⑯ IP を スプ リッ ト ・ ト ラン ザク ショ ン 型 バス で 接続 

IP コア の トラ ン ザ クシ ョ ン 層 側 と 接続 する バス ・ イ ン 
ター フェ ー ス を 決め る 際 に 注意 すべ き 点 が あり ます . 接 
続 す る バス は 大 きく 分 け て , リー ド 動作 の 異な る 下記 2 
種類 か ら 選択 する こと に な り ま ず 図 5). 

e ス プリ ッ ト ・ ト ラン ザク ショ ン 型 
@ イ ンタ ー ロ ッ ク 型 

スプ リッ ト ・ ト ラン ザク ショ ン 型 は , コマ ンド ( アド レ 
ス ) と デー タ の バス 制御 が 分 離し て いる タイ プ で す . コマ 
ンド を 発行 し た あと , デー タ が 返っ て くる 前 に 次 の コマ 
ンド を 発行 で きま す . イン ター ロッ ク 型 は , コマ ンド と 
デー タ の バス 制御 が 分 離さ れ て いな い タ イプ で す . リー 
ド ・ コ マン ド を 発行 し た ら , デー タ を 読み 終わ る まで コ 
マン ド 発行 を 停止 し まず 図 2). 

PCI Express で は , イン ター ロッ ク 型 を 使用 する と リー 
ド ・ レイテンシ が 大 きく なり, 転送 性 能 が 極端 に 悪化 し 
ます . 従来 の PCI や PCI-X に 比べ , シリ アル - パ ラ レ ル 変 
換 時 間 が 増大 し , MAC 部 分 の 階層 が 深く な っ て いる た 
めで す . 筆者 の 知る 限り , IP コア の イン ター フェ ー ス は 
どれ も スプ リッ ト 型 に な か っ て いま す . 

LSI の 外 に 出る 部 分 は どう し て も イン ター ロッ ク 型 に 


コマ ンド 図 
リー ド 遅延 較 ーー ーー ーー 
リー ド ・ デ ー タ 図 D2 


( a) イン ター ロッ ク 型 バス の リー ド 動作 図 


コマ ンド 罰 


ntel 512 


リー ド 遅延 凶 ニー 


ntel 


ntel 


リー ド ・ デ ー タ 図 


ntel 


( b) スプ リッ ト ・ ト ラン ザク ショ ン 型 バス の リー ド 動作 図 


5000X ntel 


図 5 スプ リッ ト ・ ト ラン ザク ショ ン 型 バス と イン ター ロッ ク 型 


HT -2100 | Broadcom 


バス の 違い 


ICH7 ntel 


最初 の デー タ が 出 て く る まで の 時 間 は 同じ だ が , 最後 の デー タ の 読み 


631xESB | Intel 
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出し まで は 大 き な 時 間 差 が 発生 する . PCI Express で は , 従来 の パラ 
レル ・ バ ス と 比較 し て 遅延 が 増大 し て いる た め , 影響 が 大 きい . 


r 


- 
し 


特集 し て / CX の / の 5? の すべ て 2 


な っ て し まう 個所 が 発生 する と 思い ます . で きる だ け ス 
プリ ッ ト 型 で 構成 し , 末端 で イン ター ロッ ク 型 に 変換 し 
て くだ さい . 

また , リー ド ・ レ イ テ ン シ に 関連 し て , PCI Express 
経由 の 小さ な デー タ の 読み 出し は 遅い , と いう こと に 注 
意 し て くだ さい . 特に CPU が デー タ を 一 つ 読 むー- 処 理 
っ デー タ を 一 つ 読 むつ 処理 …」 と 繰り 返す 場合 , 性 能 が 
顕著 に 低下 し ます . これ は シリ アル ・ バ ス を 採用 し て い 
る 以上 回 避 で きま せん . 


@ 動作 周波 数 向上 の た め IP と の 接続 信号 に FF を 使う 

その ほか 一 般 的 な 注意 点 と し て は , ユー ザ 回 路 か ら IP 
コア へ の 入力 信号 を FF の 出力 と する こと で す . IP コア 
へ の 入力 信号 は か な り 深い 階層 まで 直接 接続 され て いる 
場合 が あり ます . IP コア へ の 入力 信号 を フリ ッ プ フロ ッ 
プ の 出力 と し な いと , 必要 な 動作 周波 数 が 確保 で きま せ 
ん ( 筆者 は こ の 部 分 で 今回 少し 泣き まし た ). 


と 4 つ FPGA に よる 実機 評価 


今回 の LSI 設計 で は , マス ク を 起こ し て LSI を 作成 する 
前 に FPGA に 実装 し て 評価 を 行い まし た . 市 販 の PCI 
Express 評価 ボー ド を 購入 し , FPGA は 高速 シリ アル ・ ト 


トラ ンス ミッ タ 側 図 レシ ー バ 側 図 
0.075 鐘 0.2 / 欧 


し 。 日 
lI 

電圧 変化 較 
キキ og 
ヽ ] 


の 
レシ ー バ が 接続 較 ee 
され て いる 場合 図 2 
電圧 較 電圧 
時 間 較 時 間 較 


図 6 レシ ー バ 検出 の し くみ 

送信 レー ン 側 が , 受信 レー ン が 接続 され て いる か を 確認 する 機能 . 何 レー ン で 
リン ク を 確立 させ る か 認識 する た め に 使用 する . 電圧 変化 時 間 を 測定 する こと 
で 実現 する . まず トラ ンス ミッ タ は 初期 と は 逆 の レベ ル に 電圧 を 変化 させ , 

( 1) レ シー バ 接 続 時 : コン デン サ に 充電 する た め , 伝送 路上 の 電圧 は ゆっ くり 
変化 , ( 2) レ シー バ 未 接続 時 : コン デン サ が な い の と 等 価 で ある た め 電 圧 は 急 
速 に 変化 , を 判定 する . 


ラン シー バ を 内 蔵 し た も の を 使っ て 実機 評価 を 行い まし 
た . ここ で は 実機 評価 の 際 に 生じ た 問題 点 を 説明 し ます . 


@ ボー ド と 実際 の レー ン 数 が 違う と リン クア ッ プ し な い 

評価 ボー ド を パソ コン に 差し て 動か そう と し た と ころ , 
リン クア ッ プ で きる パソ コン と で き な い パソ コン が あり 
まし た . 中 に は BIOS の 起動 すら で き な い パソ コン も あ 
り ま し た . 

最初 は , 相性 の 問題 と いう 安易 な 考え で 放置 し て いた 
の で す が , 評価 が 進む に つれ て 気 に な っ て きま し た . 評 
価 中 に 何気なく 、, パソ コン と 評価 ボー ド の 間 に PCI 
Express ア ナラ イザ を 入れ て 電源 を 入れ た と ころ , 正常 
に リン クア ッ プ で きる こと が 分 か り ま し た . 

原因 は , 評価 ボー ド に あり まし た . 今回 , 8 レー ン の 
評価 ボー ド を 使用 し まし た . し か し , 4 レー ン を ター ゲッ 
ト に 設計 し て いた た め , 中 身 の 回 路 は 4 レー ン 分 し か 実 
装 し て いま せん . 

レシ ー バ 検出 で パソ コン が 認識 し た 評価 ボー ド の レー 
ン 数 と , 実際 に 実装 され た 回 路 の レー ン 数 が 異な っ て い 
た た め に , 正しく リン クア ッ プ で きま せん で し 図 6). 
使用 し て いな い レ ー ン に マス キン グ ・ テ ー プ を 張る と す 
べ て の パソ コン で リン クア ッ プ する よう に な り ま し だ 写 
真 2). 

PCI Express ア ナラ イザ を 使用 する と 正常 に 動作 し た 
の は , 使用 に て いた アナ ライ ザ が 4 レー ン 対応 だ っ た の 
で , 回 路 が 実装 され て いる レー ン し か パソ コン 側 に 接続 
され て いな か っ た か ら で す . 


@ VC を 一 つ し か 使わ な く て も TC マ ッ ピ ング が 必要 
PCI Express 部 リン クア ッ プ , コン フィ グレ ーション 


マス キン グ ・ テ ー ブ プ 関 


写真 2 8 レー ン の ボー ド の 上 位 4 レ ー ン を マス キン グ 

8 レー ン の ボー ド を その まま パソ コン に 差し て し まう と , 回 路 が 実装 され て 
いな い レ ー ン まで レシ ー バ 検出 が 行わ れ て し まい , リン クア ッ プ で き な い パ 
ソコ ン が 存在 し た . 上 位 4 レ ー ン に 魔法 の テー ズ た だ の マス キン グ ・ テ ー 
プ ) を 張る と , どの パソ コン で も リン クア ッ プ で きる よう に な っ た. 
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今回 , 筆者 ら が 設計 し た の は , PCI Express と ロー カル ・ バ ス の 
ブリ ッ ジ LST AAE-B04」 で ず 図 A, 表 A). 4 レー ン の PCOI 
Express イ ンタ ー フ ェ ー ス を 実現 で き , 高速 な デー タ 転送 を 必要 と 
する さま ざま な 場面 で 使用 可能 で す . 

通信 モジ ュー ル や カメ ラ ・ モ ジュ ー ル な ど で 筆 者 ら は 実際 に 製品 
に 搭載 し て いま 図 B). 興味 の ある 方 は 右記 に ご 連絡 くだ さい . 


AAE-B04 


68 PCI Express MAC 
4 
ポ 


レジ スタ ・ ブ ロッ ク 較 


Altera FPGA 
Xilinx FPGA 
Lattice FPGA 


ー レー ショ ン 較 
SPI フ ラッ シュ 虹 | SPI コ ント ロー ラ 較 


FPGA コン フィ グ 較 


PC スレ ー プ 鐘 人 トー ec マス タ 2 チャ ネル 
GPSIF スレ ー プ 有限 シリ アル !/O 


汎用 入出 力 囚 < 汎用 パラ レル !/O 


図 A AAE-BO4 の 内 部 ブロ ッ ク 


空間 の アク セス , 内 部 レジ スタ の アク セス まで は 動作 し 
た の で す が , DMA が 全く 動作 し ませ ん . DMA を 開始 し 


LSI の デフ ォ ルト 状態 で の TC/VC マ ッ ピ ング 較 


! エン ド ポ イン ト 図 ! ルト ! トラ フィ ッ ク b 
所 ッ 較 ・ ク ラス 較 
! リ ンク 図 ンプ レッ ク クラ ス 凶 


Tt0Q7] 図 【 Vco ) TG0Q7] 図 
BNoneate he<9SRBatat eee バー チャ ル N 
|・ チ ャ ネル 隊 


ルー ト ・ 図 


:。 TOQ] 図 ( vco (]) 


図 7 DMA が 動か な か っ た 原因 

DMA デー タ 転送 に , 何 の VC に も マッ ピン グ さ れ て いな い TC を 使用 し て い 
た . この た め デ ー タ を 流す 途中 で 詰まっ て し まい , パソ コン が ハン グ ア ッ プ 
を 起こ し だ この と き は TGC 7] を 使用 ). 
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PCI Express ブリ ッ ジ LSI 「AAE-B04」 


サン プル 価格 : 未定 出荷 開始 : 2007 年 12 月 
製品 の 詳細 , お よび 購入 に 関す る 問い合わせ 


( 株 ) ア バー ル デ ー タ 営業 部 


TEL: 042782 み 1030 


E-mail : Sales@avaldata.cojp 


ロー カル ・ バ ス ・ 較 
コン ト ロー ラ 較 


ロー カル ・ デ バイ ス [ 


64 ビ ッ ト /133MHz 


DDR SDRAM 
し DDR SDRAM 


gif 2 リラ = 32 ビ ピット /400MHz 


デー タ ・ ラ イト ・ 
デー タ ・ リ ー ド ・ 


7 2 多 リ と 


各 ブ ロッ ク は マト リッ クス ・ ス イッ チ で 接続 され て お り , 同時 に 異な っ た 個 
に 接続 され て お り , PCI Express と ロー カル ・ バ ス 双 方 か ら の 同時 アク セス が 可能 . 


所 の デー タ 転送 が 実行 で きる . メモ リ ・ コ ント ロー ラ は 2 ポー ト で スイ ッ チ 


た 途 端 に パソ コン が ハン グ ア ッ プ し て し まい ます . 

シミ ュ レ ーション で は 正常 に 動作 し て いま す . PCI 
Express ア ナラ イザ で 実際 の パケ ッ ト を 観測 し て も , PCI 
Express 上 に メモ リ ・ ア クセ ス ・ コ マン ド が 正しく 送ら 
れ て いる 様 に 見 え を ます. ただし, リー ド ・ ア クセ ス で は 
相手 先 か ら デ ー タ が 返っ て きま せん . 

原因 は , トラ フィ ッ ク ・ ク ラス ( TC) ま 2 に あり まし た . 
今回 は バー チャ ル ・ チ ャ ネル VC) を 一 つ し か 使用 し ない 
た め , TC は 何で も 構わ な い , と 思っ て いま し た . し か し , 
評価 に 使用 し た パソ コン で は TCO の み が VC0 に マッ ピン 
グ さ れ て いた た め , 正常 に 動作 し ませ ん で し だ 図 7. 

仕様 を 正しく 理解 し て いな か っ た の が バグ の 原因 で す . 


注 2: トラ ン ザ クシ ョ ン の 優先 順位 指定 に 使用 し , 0~ 7 まで の 値 を 指定 で 
きる . バー チャ ル ・ チ ャ ネル VO) を 使用 する 場合 に 使用 する . VCO 
と TC=0 は 必ず マッ ピン グ さ れる ので, VCO し かない 場 傘 VC 使 
し な い 場 合 ) は TC=0 を 使用 する . デフ ォ ル ト で は , すべ て の TC が 
VCO に マッ ピン グ さ れる . 
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し 


Base Specification Revision1.0a 


今回 作成 し た LSI の 


レー ン 数 


4 レー ン 


仕様 PCI Express 
エン ド ポイ ント 


最大 ペイ ロー ド ・ サ イズ MaxPL) 


1K バイ ト 


バッ ファ ・ サ イズ 


RX Posted Data, RX Ccompletion Data 各 8K バイ ト 
Retry 4K バイ ト 


バス ・ プ ロト コル 


シン プル な オリ ジ ナ ル ・ プ ロト コル 


信号 レベ ル 


25VLVTTL シ ング ル エ ンド 


バス 幅 


64 ビ ッ ト 


バス ・ ク ロッ ク 


133MHX 最大 ) 


応 1 
高速 メモ リ 0 


DDR200 400, 容量 : 16M バイ トー 1G バ イト ( 総 容量 ) 


バス 幅 
イン ター フェ ー ス 幅 


32 ビ ッ ト 


先読み メモ リ 


512 バ イト X 4 個 


DMA チャ ネル 数 


2 チャ ネル 


コン ト ロー ラ 対応 モー ド 


One Shot モー ド , Scatter/Getter モー ド 


FPGA コン フィ グ 
レー ショ ン 


対応 モー ド 


米国 Altera 社 FPGA : PS モー ド 
米国 Xilinx 社 FPGA : Slave Serial モー ド 
米国 Lattice Semiconductor 社 FPGA : Slave Serial モード 


パッ ケー ジ 


672 ピ ン 1mm ピ ッ チ BGA( 27mm 角 ) 


動作 温度 


0~70C 


図 B 
画像 入力 モジ ュー ル へ の 応用 例 

高速 な 転送 能力 を 生か し た , 複数 台 カ メ 
ラ の 同時 取り 込み モジ ュー ル で ある . 
FPGA で は , デー タ の 並べ 替え や フィ ル タ 
リン グ な どの 前 処理 を 行う DDR メモ リ 
は 一 時 バッ ファ と し て 利用 . 


た だ , TC の マッ ピン グ が デフ ォ ル ト から 変更 され て いた 
の は 逆 に ラッ キー か も し れ ま せん . マッ ピン グ が デフ ォ 
ルト の まま で あれ ば , バグ を 発見 で き な い と ころ で し た 


人 @ 非同期 の DMA 転 送 に お いて 視 り 込み の バグ を 発見 

評価 も 佳境 に 入り , LSI に 負荷 を か け て 評価 を 行い 始 
め ま し た . DMA を 2 チャ ネル 同時 か つ 非 同期 に 動作 させ 
て PCI Express 側 に デー タ を ライ ト し 続け る 評価 で 割り 
込み が 遅延 する 問題 が 発生 に まし た . アナ ライ ザ で 観測 
し た と ころ , 片 チ ャ ネル の DMA が 完了 し , 転送 終了 を 
割り 込み で 通知 する と ころ で も う 一 方 の チャ ネル の DMA 
転送 が 行わ れ て いる と , 割り 込み が な か な か PCI Express 
上 に 出 て きま せん . 

シミ ュ レ ーション で 同じ 様 な 状況 を 再現 させ て み ま し 
た . する と メモ リ ・ ラ イト ・ ト ラン ザク ショ ン が 途切れ 
な く 行わ れ て いる 状態 で は , 割り 込み メッ セー ジ が PCI 


+33V 20mA( 最大 ), +25V 415mA( 最大 ), 
+1.2V 22A( 最大 ) 


DDR SDRAM 


電圧 / 温 度 鐘 
監視 較 


AAE-B04 


fsPI 


フラ ッシュ ・ メ モリ 央 


PCI Express x4 


上 に 出力 され ませ ん . メモ リ ・ ラ イト ・ ト ラン ザク ショ 
ン に 空き 時 間 を 作る と , 割り 込み メッ セー ジ 出 力 さ れ ま 
す . 本 来 , 先 に 発生 し た 要求 を 先 に 出力 すべ き と こ ろ が , 
メモ リ ・ ラ イト が 優先 的 に 処理 され る 回 路 に な っ て いま 
し が だ 図 8). 


@ FPGA で 使用 し た ソフ ト が 使え る よう に ASIC を 設計 

今回 ES Engineering Sample) の 評価 で は , FPGA で の 
評価 で 使用 し た ソフ トウ ェ ア を その まま 使え る よう に し 
まし た . 同じ ソフ ト ウェ ア が 動く よう に する メリ ッ ト と 
し て は , 何と いっ て も 動作 確認 が 迅速 に 行え る こと で す . 


⑯ コン プラ イア ンス ・ テ スト で 相互 接続 の お 墨 付き 

開発 し た LSI の PCI Express ア イ ・ パ ター ン を 測定 し 
て み ま し た . @ a) は 今回 設計 し た LSI の アイ ・ パ ター 
ン で す . 測定 環境 は 以下 の 通り で す . 
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記 全 名 名 庄 久 人 旬 


期待 し て いた 動作 図 


ーー ト / 
DMA1 間 り 送 あ 也 DMA1 DMA1 | DMA1 | DMA1 


MAO | DMA1 | DMAO 
4 


DMAO0 完 了 凶 すぐ に 割り 込み 発生 図 


図 8 実際 の 動作 図 
割り 込み が 遅延 する 原因 

本 来 で あれ ば , DMA デー タ ・ パ ケッ ト と 割り 込み 
パケ ッ ト は , 同じ 優先 順位 で 処理 され る べき だ っ 
た . 実際 に は DMA パケ ッ ト 送出 に すき 間 が で きる 
まで 送出 され な か っ た . 


( a) ディ エン ファ シス 機能 を 備え た LSI の 出力 図 


図 9 PCI Express 信号 の アイ ・ パ ター ン 


DMAO 完 了 較 


DMA0 完 了 M 
DMA0 | DMA1 DMAO0 | DMA1 DMA1 DMA1 面 個 割り 込み 還 DMA1 
ム テー 


大 きく 遅延 し て 凶 
割り 込み 発生 図 


( b) ディ エン ファ シス 機能 が な い FPGA の 出力 図 


( a) の アイ ・ パ ター ン は 大 きく 開き , 良好 な 波形 が 確認 で きた .( b) も アイ ・ パ ター ン は 大 きく 開い て いる . この FPGA に は ディ エン ファ 
シス の 機能 が な いた め , 基 移 ビッ ト と 非 遷 移 ビ ッ ト の 電圧 レベ ル に 変化 が な い . こち ら も PCI Express の 仕様 を 満足 し て いる . 


e オ シロ スコ ー プ : DSO81004R 米国 Agilent Technol 

ogies 社 ) 
e CBBE Compliance Base Board) : CBB1.1 

今回 設計 し た LSI は すべ て PCI Express の 規格 に 適合 
し た 良好 な アイ ・ パ ター ン を 得 ら れ ま し た . 図 9 b) は 
FPGA 評価 ボー ド の アイ ・ パ ター ン を 測定 し た も の で す . 
FPGA に ディ エン ファ シス の 機能 が な いた め , 波形 の 振 
幅 が 一 定 で す が こ れ で も 規格 上 問題 な いよ う で す . 

PCI Express に は アイ ・ パ ター ン を 含め て , 相互 接続 
を 保証 する コン プラ イア ンス ・ テ スト が あり ます . コン 
プラ イア ンス ・ テ スト で は 以下 の 項目 を 試験 し ます . 


e エ レク トリ カル ・ テ スト : 送信 側 の アイ ・ パ ター 
ン を 測定 し , 規格 に 準拠 し て いる か 確認 する . 

e コ ン フ ィ グ レー ショ ン ・ テ スト : コン フィ グレ ー 
ショ ン 空間 に アク セス を 行い , 規格 通り の レジ ス 
タ 実装 が され て いる か 確認 する ( ソフ トウ ェ ア を 
PCI-SIG の サイ ト より ダウ ン ロ ー ド 可能 ). 
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e プ ロト コル ・ テ スト : 専用 の プロ トコ ル ・ テ スト ・ 
カー ド を 用 いて , デー タ ・ リ ンク 層 お よび ト ラン 
ザク ショ ン 層 が 規格 に 準拠 し て いる か 確認 する . 

e 相互 接続 性 テス ト : コン プラ イア ンス ・ ワ ー ク 
ショ ッ プ に 参加 し た 機器 同士 の 相互 接続 性 , お よ 
び ゴ ー ル ド ・ ス ー ツ と 呼ば れる 基準 と な る 装置 と 
の 接続 性 を 確認 する . ゴー ルド ・ ス ー ツ すべ て と , 
ワー クシ ョ ッ プ 参加 機器 の 80% に 接続 し 動作 で き 
れ ば 合格 . 


いがらし ・ た くろ う 
( 株 ) ア バー ル デ ー タ 技術 部 


筆者 プロ フィ ー ル ン シ 
五十嵐 拓郎 . 主 に LSI・FPGA 設計 お よび , 製品 仕様 設計 に 従 
事 . 1 歳 4 ヵ 月 の 娘 と じゃ れる の が 何より の 楽し み . あま りく っ 
つき すぎ る と イヤ イヤ を され て 悲し く な る . た ま に 行 く ダー ツ の 
腕 を 磨き た い . 


